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Сегментащя мовного сигналу, 
що в1дпов!дае наперед в1домому слову 


В работе предлагаются алгоритмы, исправляющие и уточняющие априорную сегментацию речевого 
сигнала, соответствующего русскому слову в случае, когда это слово известно заранее. 
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широкая фонетическая классификация, метка. 
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Кеу мог4б5: а рпогу зезтешайоп, ргоу1$1опа| зестешщаноп, у14е рпопейс с1аз1Йсайоп, тагК. 


У робот: пропонуються алгоритми, яки виправляють та уточнюють апрюрну сегментацю мовного 
сигналу, якщо в!н в1дпов!дае рос!Йському слову, шо в1домо наперед. 
Ключов! слова: апр1орна сегментащя, умовна сегментащя, широка фонетична класифкаця, метка. 


В работах [1], [2] описаны предложенные авторами методы сегментации речевого 
сигнала, то есть автоматического разбиения его на участки, отвечающие отдельным 
звукам русской речи, с одновременной классификацией этих участков в рамках 
широкой фонетической классификации (\! — гласный звук, С — звонкий согласный, Е — 
глухой фрикативный, Р — глухой взрывной). Эта процедура играет важную роль в 
процессе распознавания как отдельно произносимых слов, так и распознавания слитной 
речи. В частности, на нее опирается развиваемый авторами метод дифонного ОТ\- 
распознавания отдельно произносимых слов (в дальнейшем в этой статье мы будем 
говорить именно о распознавания отдельно произносимых слов). В качестве основного 
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инструмента сегментации используется численный аналог полной вариации, вычисляемый 


для последовательных отрезков по 256 отсчетов: 
254 


Г = ба = | 
1=0 


Поскольку во всех наших системах такая сегментация выполняется сразу после 
записи, и предшествует всем процедурам распознавания, ее естественно называть 
априорной. 

Распознавание речи на всех этапах, за исключением возможно автоматического 
транскрибирования слов распознаваемого словаря, связано со случайными процессами, 
что является основным источником возможных ошибок. Это относится и к априорной 
сегментации. Как отмечено в [2], в большинстве случаев ошибки сегментации не влияют 
на результат распознавания. Однако они становятся существенными в следующей 
ситуации. Если сказанное слово распознано ошибочно, то пользователь может ввести в 
соответствующее поле правильное слово, и программа будет знать имена дифонов базы, 
которые нужны для построения эталона этого слова. Если сегментация будет правильной, 
то можно правильно выделить и прозвучавшие дифоны. При этом важно, чтобы метки 
сегментации стояли в нужных местах, а идентификация отрезков разбиения в терминах 
широкой фонетической классификации \-С-Е-Р не существенна. В этом случае 
распознающую систему можно дообучить, усреднив дифоны сказанного слова и 
соответствующие дифоны базы. Использование модифицированных дифонов при 
создании эталонов слов словаря будет приводить к улучшению распознавания данного 
диктора. 

В связи с этим возникает задача сегментации при условии указания сказанного 
слова — условной сегментации. Такое понятие введено в работе [3]. Мы предлагаем 
осуществлять условную сегментацию путем модификации априорной сегментации. 
Первое упоминание о соответствующих процедурах сдержится в работе [4]. В настоящей 
статье мы систематизируем упоминавшиеся и опишем некоторые новые алгоритмы. 

1. Прежде всего, программа должна выяснить имеются или нет ошибки в 
априорной сегментации (в случае их отсутствия коррекция, естественно, не нужна). 
Далее, в случае наличия ошибок, программа должна обнаружить те места, где они 
сделаны. Для этого по введенному слову строится его транскрипция, а затем обобщенная 
транскрипция в терминах широкой фонетической классификации (ШФК). 

Пусть для примера сказано слово «пальма» и для него получилась сегментация 


в Кесовгихег - [\/ОВО1] 
\ Ае ЕФ \Мем Орбопз \/паом Нер - эх 
= ино ССОО $ # мимКк ТН м винт т 66 Рф Р дк т МЕС А в $ "СЕ 


Кеаду 25820 _3 МОМ 
Рисунок 1 — Визуализация сигнала для слова «пальма» 
с ошибочной априорной сегментацией. 
с сегментами \М/,С,\ (1) 
Наш автоматический транскриптор затранскрибирует слово так: «па]ма». Начальное П 
при априорной сегментации не выделяется. Поэтому использование ШФК-транс- 
крипции выделяет гласный, два согласных и еще один гласный звук: 


МСС (2) 
Программа последовательно сопоставляет символы (2) и символы (1), идя слева 
направо. Она обнаруживает, что второму символу С последовательности (2) соответ- 
ствует \! цепочки (1). Это указывает наличие и место ошибки. Коррекция будет 
состоять в делении сегмента С пополам с помощью дополнительной С-метки: 


«Штучний 1нтелект» 2014 №4 203 


`6ш Шелепов В.Ю., Ниценко А.В. 


Й Весовгиухег - [№0851] Е] Г] 4 
< Не Е Мем Орбоп$ \М/паом Нер - ах 


оза ие ССОО $ + мШимКк ти Ни вым т са Р дк ЖЕ ЕС мл СЕ 


Кеаду 25820 _3 МУМ 


Рисунок 2-— Сегментация сигнала для слова «пальма» после коррекции 


Аналогично осуществляется анализ и коррекция при обнаружении в априорной 
сегментации двух рядом стоящих С-сегментов вместо одного (вторая С-метка убирается). В 
случае, когда для слова «пальма» получается априорная сегментация с немаркиро- 
ванной меткой (рис. 3), последняя заменяется маркированной С-меткой. 


в Кесоётхег - [\!ОЕО1] Е | 
“Е ве Ебк Мем Орбопз \ММпаом Нар ах 
оза › + ССС $ * мшмКк инет т Фо Рысь ылвз* СЕ 


Веаду | 28820 __6 мм 
Рисунок 3— Априорная сегментация для слова «пальма» с немаркированной меткой 


Аналогично осуществляется коррекция сегментации на участках глухих звуков. 
Отметим, что для Ц и Ч считаются правильными две сегментации: РЕ и Е. 

2. На рис. 4 представлена визуализация сигнала для слова «облом» с априорной 
сегментацией, содержащей гласную вставку между звуками [6] и [Л]. 


ый Весозгихег - [У/ОВО1] 
не ЕЧк Мем Орбопз \М/паом Нер 
= но ССОО $ + мШмКк Нм вым т 54 Рф Р к "т МЕС шим в $ СЕ 


Рисунок 4 — Визуализация сигнала для слова «облом» с гласной вставкой между [6] и [л] 


Программа обнаруживает ее описанным выше способом, сопоставляя цепочку 
М.С, М, С, М, С 
и ШФК-транскрипцию У\/СС\УС. В результате коррекции средний \/-сегмент убирается 
(вторая С-метка становится на место второй У\/-метки). 
3. Встречаются случаи, когда для слова, начинающегося звонким согласным, 
априорная сегментация ошибочно ставит в начале лишний гласный звук. Чаще всего 
это случается для слов, начинающихся на [3], пример на рис. 5: 


ый Кесозгихег - [\/ОВО1] ЕС р 
“< Ае Еб \Мем Орбоп$ \М/падом Нер РИ 
оза › + ССОО $ ® мШмКк тиН м вит т са Фа Р ры т МЕЕФСвмА В $ "СЕ 


"М С : :С т 


А Аааа АИ АДАМА АА 
ААА ИИА ИАА 


Веаду | | | | | 30020 _|5 МУМ 
Рисунок 5 — Сегментация сигнала для слова «зима» с ошибочным гласным в начале 


При коррекции маркировка начальной метки заменяется на С, а следующая С-метка 
убирается. Результат на рис. 6: 


ы Кесозгихег - [\/ОЕО1] [299 Г 
< Ае Е \Мем Орбоп$ \М/паом Нер т х 
оза › е ССОО $ * мшимКк Ни винт т с Те РТ ЕЕФСвмлАв СЕ 


ААА г ий 


Аааа АДАМА АА 
УИ ААА ААУ 


Веаду 30020 _|5 МУМ 


Рисунок 6_Р езультат коррекции сегментации для слова «зима» 
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4. Остановимся на случае, когда при априорной сегментации не выделен С-сегмент 
перед глухим звуком (рис. 7). Наличие и местоположение этой ошибки определяется так же, 
как и выше. Коррекция осуществляется путем отдельной сегментации соответствующего \\- 
отрезка; результат представлен на рис. 8. В случае, если дополнительная метка при этом все 
же не появляется, используется искусственное разбиение отрезка «равномерными» метками: 
он делится на 3 равные части и последняя треть считается искомым С-сегментом. 


ый Кесовгихег - [\!ОВО1] ЕСМ 
“не ЕфЕ Ме Орбопз М/пдом Ннер = 
в = шо СОС $5 ® мшимКк ним винты т са Р р "жт МЕЕ+Симлв 7 СЕ 
_ | — | 
ЗВАЛ О ДА ДАЛА АЛА АРИЕ ГУ ААА МТ т и 
ИИ ААА М АА ТИНА 
Кеаду 29420 4 МОМ 


Рисунок 7 — Визуализация сигнала для слова «больше» 
с ошибочной априорной сегментацией 


в Кесовгихег - [\!ОВО1] Е [а] 
\ не Еф Уем Орбопз \ММпаом Нер ПТИ" 
в” = | шо ССОО $ мшмк тн вым т сё Ра Р р жт МЕЕФСшиымл в $ * СЕ 
С М | Е : : 
ТИ ИННА А 
ТИАДАЛААААААЛИУ ИАА УНИИ д НЙ 
Веаду 29420 |1 И 


Рисунок 8 — Сегментация предыдущего сигнала после коррекции 


Аналогично исчерпывается случай, когда при априорной сегментации не выделен 
С-сегмент после глухого звука. 

В случае, когда слово заканчивается глухим звуком, но соответствующий заклю- 
чительный отрезок в сегментации отсутств ет, последний добавляется искусственно: 


Й Весовгихег - [\\ОВО?] 
Е ве ЕФК Мем Орбоп$ МИпаом Нер | х 
= ше СОС $ © мшмКк ни внт т се Р к жт МЕС ылв $ “СЕ 

С 1 | ЗИ | | 


ЛАДА ААА ААА ИДЕИ МЫ АА 
Аи ——- 


Кеаду 34220 _4 МУМ 


Рисунок 9 — Априорная сегментация сигнала для слова «налог» без заключительного сегмента 
Й Весовгихег - [\ОВО?] [28 О Хх 
4 ве Еф Мен Оршопз \ММпфом Нер ах 
зы но ССС $ + мШимК тиНи вит т с Ра Р р "т МЕС выл СЕ 
ГС ы р | 
Веаду | | | | | | 34220 4 МУМ 
Рисунок 10 — Сегментация предыдущего сигнала после коррекции. 

5. Обсудим теперь достаточно частую ошибку, когда при априорной сегметации 
не выделяется твердый или мягкий звук [р]. Это бывает, когда этот звук произносится 
не раскатисто, с неактивной артикуляцией. Здесь рассмотрим два отдельных случая. 

а) Звук [р| находится между двумя гласными и при сегментации его следует 
искать внутри самого длинного \-отрезка. 

В Ресовгихег - [\/ОВО?] [2 О Хх 
4 ве Еф Мен Оршопз \ММпаом Нер ах 
оз › э ССОО & # мШмК ТИНи вит т с Ра Р р "т МЕС выл СЕ 
:С у ;С НМ р 
лААА ВАА НИ | ВА | ИИ Е 
Веаду | 30020 4 МОМ 


Рисунок 11 — Априорная сегментация для слова «ворона» с отсутствующим сегментом [р] 
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В этом случае этот \-отрезок разбивается «равномерными» метками на 3 равные части 
и средняя треть выделяется как отрезок звука [р] (рис. 12). 


Й Весовгихег - [МОВО?] [28 О Хх 
ве ЕЧК \Мем Орбоп$ \М/паом Нер -|@х 
Оз › е СОС 5+ мшмк нм винт т са Ре Р р ТЕ ЕФСвмлАв СЕ 

75 | Ци: С НМ : 

: | | || ТТ 

не Н 5 И М Е 
Веаду | | | 30020 4 МУМ 
Рисунок 12 — Сегментация предыдущего сигнала после коррекции 
Ь) Звук [р| предшествует звонкому согласному (рис. 13) 
в Весозгихег - [\/ОВО?2] |= О Хх 
не Еф \Мем Орбопз М/пдом Нер ах 
оз › е СОС $» мшыКк шним винт т с Фе Р к жж т М ЕЕК ЕЕ 
ыы НА НА { Алле 

Веаду | 26120 14 МУМ 


Рисунок 13 — Априорная сегментация для слова «карман» с отсутствующим сегментом [р] 


В этом случае мы с помощью алгоритма, предложенного в [5], выделяем участки, 
соответствующие ударам языка о нёбо (р-удары, рис. 14) и отдельно сегментируем отрезок 
от первой р-метки до конца следующего С-отрезка. Результат представлен на рис. 15 


В Ресовгихег - [\/ОВО?] 


“ Не ЕФ \Мем Орбопз \Ипаом Нер ых 
оз › е СОС $ мшык ним винт т с Фе Р р "т ЕФСвылв СЕ 
М [ро С С : 
ЕЕ Нее в НМ | И - ыы Пи и И а лы 
Веаду. Е 26120 4 ММ 


Рисунок 14 — Сегментация слова «карман» с выделением р-удара 


Й Ресовгихег - [\/ОВО?] [| | 4 
ве ЕЧК \Мем Орбоп$ \ММпаом Нер ах 
оз › е СОС $ мшиык шним винт т с Фе Р "ТЕ ЕФСвылв СЕ 
НМ (С :С | С 
И и _ НИ ин и И и ИИ Г. НИ и --- И иле 
Веаду | | | 26120 2 МОМ 


Рисунок 15-— Результат коррекции сегментации для слова «карман» 


с) Звук [р] следует за звонким согласным. Этот случай исчерпывается аналогично 
предыдущему, только движение происходит не слева направо, а справа налево. 

4) Звук [р] соседствует с глухим звуком. Здесь алгоритм коррекции такой же, как в 
случаях БЪ) и с) с заменой звонкого согласного на глухой. 

6. Случай двух рядом стоящих гласных. 

Если участок, где находятся такие гласные, выделен, то желаемая метка, которая 
будет центром соответствующего дифона, может быть получена следующим образом. 
Участок разбивается «равномерными» метками на 3 равные части, средняя треть удаляется, а 
оставшиеся две части всего сигнала склеиваются. Таким образом, в данном случае 
происходит не только коррекция сегментации, но и преобразование распознаваемого 
сигнала. Однако это преобразование находится в русле того, что мы делаем, когда 
производим при распознавании слова межфонемную обработку [2]. При этом мы 
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получаем дифон, который можно путем усреднения с соответствующим дифоном 
дифонной базы использовать для модификации последнего в интересах распознавания 
для данного диктора. 

Выделение участка, где находятся два соседних гласных, представляет наиболее 
трудную часть обсуждаемой проблемы, ибо при априорной сегментации он перво- 
начально может, как выделяться целиком, так и разбиваться на два или три разноимен- 
ных отрезка. Например, участок звукосочетания АЙ стабильно сегментируется как \УС. 
Добиться желаемого выделения можно, если процедуру типа той, которая описывалась 
выше относительно последовательностей (1) и (2) провести, двигаясь не только слева 
направо, но и справа налево. 
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зестетаноп оГэреесй 51епа ушей Соттехропаб 10 Веогейапа 
Кпоми ога 


ТБе агасе 1$ деуое ю зеотещайоп оЁ зреесВ $1юпа| оЁ йе Беогебап@ Кпо\уп \№ога. 
Аи®ог$ а рпогу зеотетщаноп Юг апу зреесп $1епа| ас аз Фе Баз15. СепегаНте тапзсириоп 
УЛйш Ше НатеугогК оЁ улае рБопейс с<аззШсаНоп 1$ соптоШи® шЮппайоп. А ой ипаз$ аге 
ргорозе4 Юг а4@те ууапёпе ап ейитаноп оЁ иппесеззагу есле оЁ уо\е[5, услсе4 апа 
ипуотсе4 сопзопат. Зерагайоп оЁ Ваг4 ап4 зо зоипа [г| ап4 угогК УЛ $1епа| сопашше мо 
пеоПБопие з0ип4$ аге зиБ]есз оЁ Фе зресла! айепноп. Кези5 р]ау а сейаш рай ш Фе 
шо@Йсаноп ЧрБопе-Базе Гог сопсгее зреаКег ш е ргосезз оЁ @рвопе ОТ\/-гесост@оп. 
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